Static এবং Dynamic Partitioning গাইড ও নোট

Big Data and Analytics - হাইভ (Hive) - Partitions এবং Buckets
491

Hive-এ Partitioning হল একটি ডেটাবেস টেবিলের ডেটাকে ছোট ছোট ইউনিটে ভাগ করার প্রক্রিয়া। এটি ডেটাকে প্রক্রিয়া করার জন্য কার্যকারিতা এবং স্কেলেবিলিটি বৃদ্ধি করে। Partitioning মূলত ডেটাকে একাধিক ফোল্ডারে বিভক্ত করে রাখে, যেখানে প্রতিটি ফোল্ডার একটি নির্দিষ্ট পরিমাণ ডেটা ধারণ করে। Hive-এ দুটি ধরনের Partitioning পদ্ধতি ব্যবহৃত হয়: Static Partitioning এবং Dynamic Partitioning। এই দুটি পদ্ধতির মধ্যে কিছু পার্থক্য রয়েছে, যা ডেটা প্রক্রিয়াকরণের উপযুক্ততা নির্ধারণ করে।

Static Partitioning


Static Partitioning পদ্ধতিতে, Hive ব্যবহারকারীকে কুয়েরি লেখার সময় পূর্বনির্ধারিত পার্টিশন তৈরি করতে বলে। এই পদ্ধতিতে, ডেটা ইনসার্ট করার জন্য ব্যবহারকারীকে Partition Column এর মানটি নির্ধারণ করতে হয়। উদাহরণস্বরূপ, যখন আপনি একটি নতুন ডেটা ইনসার্ট করবেন, তখন আপনাকে স্পেসিফিক পার্টিশন ফোল্ডারের নাম দিতে হবে।

Static Partitioning এর বৈশিষ্ট্য

  • পার্টিশন কলাম নির্ধারণ করা হয়: Static Partitioning ব্যবহার করার সময়, ব্যবহারকারীকে Partition Column এর মান নির্ধারণ করতে হয়, যেমন একটি নির্দিষ্ট date বা region
  • ডেটা ইনসার্ট করার আগে পার্টিশন তৈরি করতে হয়: ব্যবহারকারীকে কুয়েরি চালানোর সময় সুনির্দিষ্ট পার্টিশন উল্লেখ করতে হয়, যেমন PARTITION (year=2024, month=01)
  • সহজ এবং স্থির: Static Partitioning সাধারণত সহজ, তবে এটি বড় ডেটাসেটের জন্য কম কার্যকরী হতে পারে, কারণ প্রতিটি কুয়েরির জন্য প্রতিটি পার্টিশন ম্যানুয়ালি উল্লেখ করতে হয়।

Static Partitioning উদাহরণ

INSERT INTO TABLE sales PARTITION (year=2024, month=01)
SELECT * FROM staging_sales WHERE date >= '2024-01-01' AND date < '2024-02-01';

এই কুয়েরিতে, year=2024 এবং month=01 পার্টিশন আগে থেকেই তৈরি থাকতে হবে, এবং সেই অনুযায়ী ডেটা ইনসার্ট হবে।


Dynamic Partitioning


Dynamic Partitioning পদ্ধতিতে, Hive ব্যবহারকারীর থেকে পার্টিশন কলামের মান অটোমেটিকভাবে গ্রহণ করে। এর মানে হল যে ব্যবহারকারীকে কুয়েরি লেখার সময় পার্টিশন কলামের মান সুনির্দিষ্ট করতে হয় না; Hive ডেটার উপর ভিত্তি করে পার্টিশন তৈরি করে। এই পদ্ধতিটি ডেটার বিভিন্ন পরিমাণ পার্টিশন তৈরি করতে সাহায্য করে এবং এটি বড় ডেটাসেটের জন্য বেশি উপযোগী, যেখানে প্রতিটি পার্টিশনের মান আলাদা হতে পারে।

Dynamic Partitioning এর বৈশিষ্ট্য

  • অটোমেটিক পার্টিশন তৈরি: Dynamic Partitioning এ Hive ডেটার থেকে সঠিক পার্টিশন তৈরি করতে পারে, ব্যবহারকারীকে কোনো বিশেষ মানের উল্লেখ করতে হয় না।
  • বৃহৎ ডেটা সেটের জন্য উপযুক্ত: যখন ডেটা ভিন্ন সময়, স্থান বা ক্যাটেগরির ভিত্তিতে ভিন্ন ভিন্ন পার্টিশনে বিভক্ত করা হয়, তখন Dynamic Partitioning ব্যবহার করা সুবিধাজনক।
  • কম লোড এবং বেশি কার্যকারিতা: Dynamic Partitioning কম পার্টিশন তৈরি করতে সহায়তা করে, কারণ Hive এটি ডেটা থেকে অটোমেটিকভাবে পরিচালনা করতে পারে।

Dynamic Partitioning উদাহরণ

SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;

INSERT INTO TABLE sales PARTITION (year, month)
SELECT id, name, amount, year, month FROM staging_sales;

এই কুয়েরিতে, year এবং month পার্টিশন কলামের মান ডেটা থেকে ডাইনামিকভাবে নির্ধারিত হবে এবং ডেটা সেই অনুযায়ী ইনসার্ট হবে।


Static এবং Dynamic Partitioning এর মধ্যে পার্থক্য


বৈশিষ্ট্যStatic PartitioningDynamic Partitioning
পার্টিশন নির্ধারণব্যবহারকারীকে কুয়েরি লেখার সময় পার্টিশন কলাম নির্ধারণ করতে হয়।Hive ডেটা থেকে অটোমেটিকভাবে পার্টিশন কলাম নির্ধারণ করে।
ডেটা ইনসার্টপ্রতিটি কুয়েরির জন্য স্পেসিফিক পার্টিশন ফোল্ডার উল্লেখ করতে হয়।Hive ডেটার ভিত্তিতে পার্টিশন তৈরি করে এবং ইনসার্ট করে।
পারফরম্যান্সছোট ডেটাসেটের জন্য কার্যকরী। বড় ডেটাসেটের জন্য বেশি কার্যকর নয়।বড় ডেটাসেটের জন্য উপযুক্ত, কারণ এটি অটোমেটিক পার্টিশন তৈরি করে।
পার্টিশন সংখ্যাম্যানুয়ালি নির্ধারিত পার্টিশন সংখ্যা।ডেটার পরিমাণ এবং বৈশিষ্ট্যের উপর ভিত্তি করে ডাইনামিক পার্টিশন সংখ্যা।
ব্যবহারের জটিলতাসহজ, তবে অনেক সময় ডেটা ইনসার্টে প্রচুর হস্তক্ষেপ করতে হয়।আরও নমনীয়, তবে কিছু কনফিগারেশন সেটিংস প্রয়োজন।

উপসংহার


Static Partitioning এবং Dynamic Partitioning উভয়ই Hive-এ পার্টিশনিংয়ের জন্য ব্যবহৃত হয়, তবে তাদের ব্যবহারের উপযোগিতা এবং কার্যকারিতা ভিন্ন। Static Partitioning ছোট এবং স্থিতিশীল ডেটাসেটের জন্য আদর্শ, যেখানে ব্যবহারকারী নির্দিষ্ট পার্টিশন কলাম উল্লেখ করেন। অপরদিকে, Dynamic Partitioning বড় ডেটাসেটের জন্য উপযুক্ত, যেখানে Hive অটোমেটিকভাবে পার্টিশন তৈরি করে এবং ডেটা দ্রুত এবং দক্ষভাবে প্রক্রিয়া করা যায়।

Content added By
Promotion

Are you sure to start over?

Loading...